智能论文笔记

Theoretical Analysis of Primal-Dual Algorithm for Non-Convex Stochastic Decentralized Optimization

Yuki Takezawa , Kenta Niwa , Makoto Yamada

分类：机器学习

2022-05-23

近年来，分散的学习不仅是大规模机器学习的强大工具，而且还用于保留隐私。分散学习的主要挑战之一是，每个节点持有的数据分布在统计上是异质的。为了应对这一挑战，提出了称为边缘传感器学习（ECL）的原始二重算法，并在实验上证明对数据分布的异质性是可靠的。但是，仅当目标函数是凸的时，才提供ECL的收敛速率，并且在目标函数为非convex的标准机器学习设置中尚未显示。此外，尚未研究ECL对数据分布的异质性强大的直观原因。在这项工作中，我们首先研究了ECL和八卦算法之间的关系，并表明ECL的更新公式可以被视为纠正八卦算法中的局部随机梯度。然后，我们提出了包含ECL作为特殊情况的广义ECL（G-ECL），并在（强）凸和非凸面设置中提供G-ECL的收敛速率，这不取决于该设置数据分布的异质性。通过合成实验，我们证明了G-ECL和ECL的数值结果与G-ECL的收敛速率一致。

translated by 谷歌翻译

Extending AdamW by Leveraging Its Second Moment and Magnitude

Guoqiang Zhang , Niwa Kenta , W. Bastiaan Kleijn

分类：机器学习 | 人工智能

2021-12-09

最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现，学习率必须足够小，以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中，我们提出了一种新的自适应优化方法，通过在两个方面扩展Adamw，以便放宽对局部稳定性的小型学习率的要求，我们称之为AIDA。首先，我们考虑跟踪梯度大小的第2矩R_T。当p = 2时，r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知，更新方向M_ {T + 1} /（v_ {t + 1} + epsilon）^ 0.5（或m_ {t + 1} /（v_ {t + 1} ^ 0.5 + epsilon）的Adamw（或者亚当）可以被分解为标志向量符号（M_ {t + 1}）通过幅度的向量乘以量数| m_ {t + 1} | /（v_ {t + 1} + epsilon）^ 0.5（或| m_ {t + 1} | /（v_ {t + 1} ^ 0.5 + epsilon）。Aida旨在以| m_ {t + 1} | ^ q /（r_ {t + 1} + epsilon）^（q / p）（或| m_ {t + 1} | ^ q /（（r_ {t + 1}）^（q / p）+ epsilon），减少到当（p，q）=（2,1）时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的，当Q> 1和P> 1在Aida中，原点0只有当重量衰减是非零时局部稳定。进行实验，用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器，为两个深度学习（DL）任务。实证研究表明，在许多场景中表明（包括两个DL任务），AIDA具有特定设置（P，Q）不等于（2,1）优于Adamw的设置（p，q）=（2,1）。

translated by 谷歌翻译

Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech

Yusuke Nakai , Yuki Saito , Kenta Udagawa , Hiroshi Saruwatari

分类：人工智能 | 机器学习

2022-09-26

我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音（TTS）模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络（GAN）通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是，该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络：多任务歧视器和多扬声器神经TTS模型（即GAN的生成器）。对歧视者的训练不仅是为了区分自然语音和合成语音，而且还存在验证输入语音的说话者的存在或不存在（即，通过插值可见的说话者的嵌入向量而新生成）。同时，对发电机进行了训练，以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失，即使目标扬声器看不见，也可以实现高质量的多演讲者TT。实验评估表明，我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。

translated by 谷歌翻译

Nearest Neighbor Non-autoregressive Text Generation

Ayana Niwa , Sho Takase , Naoaki Okazaki

分类：自然语言处理

2022-08-26

非自动回旋（NAR）模型的计算能力比自回归模型较少，但牺牲生成质量可以生成句子。先前的研究通过迭代解码解决了这个问题。这项研究建议将最近的邻居用作NAR解码器的初始状态，并迭代编辑。我们提出了一种新颖的培训策略，以了解有关邻居的编辑操作，以改善NAR文本生成。实验结果表明，所提出的方法（邻域）在JRC-ACQUISIE EN-DE DATASET上获得了更高的翻译质量（比香草变压器高1.69点（比香草变压器高1.69点），而解码迭代率较少（少于十分之一）使用最近的邻居翻译。我们还确认了所提出的方法对数据到文本任务（Wikibio）的有效性。此外，所提出的方法在WMT'14 EN-DE数据集上优于NAR基线。我们还报告了建议方法中使用的邻居示例的分析。

translated by 谷歌翻译

HTML版本

A Detection Method of Temporally Operated Videos Using Robust Hashing

Shoko Niwa , Miki Tanaka , Hitoshi Kiya

分类：计算机视觉

2022-08-10

众所周知，SNS提供商可以进行上传视频/图像的重新压缩和调整，但是大多数用于检测篡改视频/图像的常规方法对此类操作不够强大。此外，视频是在时间上操作的，例如插入新框架和框架的排列，通过使用常规方法很难检测到其中的操作。因此，在本文中，我们提出了一种新颖的方法，该方法具有强大的散列算法，即使在对视频进行调整和压缩时，也可以检测到时间操作的视频。

translated by 谷歌翻译

Generalizable and Robust Deep Learning Algorithm for Atrial Fibrillation Diagnosis Across Ethnicities, Ages and Sexes

Shany Biton , Mohsin Aldhafeeri , Erez Marcusohn , Kenta Tsutsui , Tom Szwagier , Adi Elias , Julien Oster , Jean Marc Sellal , Mahmoud Suleiman , Joachim A. Behar

分类：机器学习 | 人工智能

2022-07-20

为了推动满足所有人需求并使医疗保健民主化的健康创新，有必要评估各种分配转变的深度学习（DL）算法的概括性能，以确保这些算法具有强大的态度。据我们所知，这项回顾性研究是第一个开发和评估从跨种族，年龄和性别的长期跳动间隔的AF事件检测的深度学习模型（DL）模型的概括性能（DL）模型的概括。新的复发DL模型（表示为ARNET2）是在2,147名患者的大型回顾性数据集中开发的，总计51,386小时连续心电图（ECG）。对来自四个中心（美国，以色列，日本和中国）的手动注释测试集评估了模型的概括，总计402名患者。该模型在以色列海法的Rambam医院Holter Clinic的1,730个Consecutives Holter记录中进一步验证了该模型。该模型的表现优于最先进的模型，并且在种族，年龄和性别之间进行了广泛的良好。女性的表现高于男性和年轻人（不到60岁），并且在种族之间显示出一些差异。解释这些变化的主要发现是心房颤动患病率更高（AFL）的群体的性能受损。我们关于跨组的ARNET2相对性能的发现可能对选择相对于感兴趣群的首选AF检查方法具有临床意义。

translated by 谷歌翻译

Reforming an Envy-Free Matching

Takehiro Ito , Yuni Iwamasa , Naonori Kakimura , Naoyuki Kamiyama , Yusuke Kobayashi , Yuta Nozaki , Yoshio Okamoto , Kenta Ozeki

分类：人工智能

2022-07-06

我们考虑将每个代理分配一个项目时改革无嫉妒的匹配的问题。给定无嫉妒的匹配，我们考虑一个操作，将代理商与代理人首选的未分配项目交换，从而导致另一种无嫉妒的匹配。我们尽可能地重复此操作。我们证明，由此产生的无嫉妒匹配是唯一确定的，可以在选择初始嫉妒的匹配下进行选择，并且可以在多项式时间中找到。我们称之为由此产生的匹配，是一个不正确的嫉妒的匹配，然后我们研究了最短的序列，以从最初的无嫉妒匹配中获得无嫉妒的嫉妒匹配。我们证明，即使每个代理最多接受四个项目，最短的序列在计算上也很难获得，并且每个项目最多都被三个代理所接受。另一方面，当每个代理最多接受三个项目或最多两个代理接受每个项目时，我们给出多项式时间算法。还讨论了不可Ximibibibibibibility和固定参数（IN）的障碍性。

translated by 谷歌翻译

Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS

Kenta Udagawa , Yuki Saito , Hiroshi Saruwatari

分类：神经与进化计算

2022-06-21

本文提出了一种用于多演讲者文本到语音的人类扬声器适应方法。使用常规的说话者适应方法，使用对扬声器歧视任务进行培训的扬声器编码器，从其参考语音中提取目标扬声器的嵌入矢量。但是，当参考语音不可用时，该方法无法获得目标扬声器的嵌入向量。我们的方法基于人类的优化框架，该框架结合了用户来探索扬声器 - 安装空间以查找目标扬声器的嵌入。提出的方法使用顺序线搜索算法，该算法反复要求用户在嵌入空间中的线段上选择一个点。为了有效地从多个刺激中选择最佳的语音样本，我们还开发了一个系统，在该系统中，用户可以在每个音素的声音之间切换在循环发音的同时。实验结果表明，即使不直接将参考语音用作说话者编码器的输入，提出的方法也可以在客观和主观评估中实现与常规评估相当的性能。

translated by 谷歌翻译

Building a Personalized Dialogue System with Prompt-Tuning

Tomohito Kasahara , Daisuke Kawahara , Nguyen Tung , Shengzhe Li , Kenta Shinzato , Toshinori Sato

分类：自然语言处理

2022-06-11

没有一致响应的对话系统并不令人着迷。在这项研究中，我们建立了一个对话系统，可以根据给定的角色设置（角色）响应以带来一致性。考虑到语言模型迅速增加的趋势，我们提出了一种使用迅速调整的方法，该方法在预训练的大规模语言模型上使用了低学习成本。英语和日语中自动和手动评估的结果表明，可以使用比微调更少的计算资源来构建具有更自然和个性化响应的对话系统。

translated by 谷歌翻译

Expert Human-Level Driving in Gran Turismo Sport Using Deep Reinforcement Learning with Image-based Representation

Ryuji Imamura , Takuma Seno , Kenta Kawamoto , Michael Spranger

分类：人工智能 | 计算机视觉

2021-11-11

当人类播放虚拟赛车游戏时，他们使用游戏屏幕上的视觉环境信息来了解环境中的规则。相比之下，优于人类玩家的最先进的现实赛车游戏AI代理商不使用基于图像的环境信息，而是由环境提供的紧凑和精确的测量。在本文中，提出了一种基于视觉的控制算法，并在使用Gran Turismo Sport（GTS）的现实赛车场景中的相同条件下与人类播放器性能进行比较，这被称为高保真逼真的赛车模拟器。在所提出的方法中，构成在传统最先进的方法中的部分观测的环境信息被从游戏屏幕图像中提取的特征表示替换。我们证明，即使使用游戏屏幕图像，所提出的方法也在高速驾驶场景下执行专家人级车辆控制，作为游戏屏幕图像作为高维输入。此外，它在时间试用任务中以GTS中内置的AI占此胜过，其分数将其分为大约28,000人的人类玩家。

translated by 谷歌翻译